智能论文笔记

MTU-Net: Multi-level TransUNet for Space-based Infrared Tiny Ship Detection

Tianhao Wu , Boyang Li , Yihang Luo , Yingqian Wang , Chao Xiao , Ting Liu , Jungang Yang , Wei An , Yulan Guo

分类：计算机视觉

2022-09-28

空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大（例如，数千平方公里），这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多，二聚体，更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题，我们开发了一个空间红外的小型船舶检测数据集（即Nudt-Sirst-Sea），该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积，带有10000x10000像素。考虑到这些充满挑战的场景，考虑到这些微小的船只的极端特征（例如，小，昏暗，可变的），我们在本文中提出了多层Transunet（MTU-NET）。具体而言，我们设计了视觉变压器（VIT）卷积神经网络（CNN）混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取，然后馈入多级特征提取模块（MVTM）以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特（CRRP）数据增强方法，以加速训练阶段，从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外，我们设计了一个焦点损失，以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明，就检测概率，错误警报率和联合交集的交集而言，我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。

translated by 谷歌翻译

Learning Sub-Pixel Disparity Distribution for Light Field Depth Estimation

Wentao Chao , Xuechun Wang , Yingqian Wang , Liang Chang , Fuqing Duan

分类：计算机视觉

2022-08-20

现有的光场（LF）深度估计方法通常将深度估计视为回归问题，该回归问题是由像素的L1损失在回归的差距图和地面图之间监督的。但是，差异图只是差异分布的一个子空间投影（即期望），而后者对于模型学习更为必要。在本文中，我们提出了一种简单而有效的方法，通过充分利用深网的力量来学习子像素差异分布。在我们的方法中，我们在子像素水平上构建成本量，以产生更精细的深度分布，并设计不确定性感知的局灶性损失，以监督差异分布，以接近地面图。广泛的实验结果证明了我们方法的有效性。我们的方法称为亚焦点，在HCI 4D LF基准测试的99个提交算法中排名第一，就所有五个精度指标（即BadPix0.01，BadPix0.01，badpix0.03，badpix0.07，MSE和Q25）而言，这是第一位。胜过最近最新的LF深度方法，例如OACC-NET和ATTMLFNET。代码和型号可在https://github.com/chaowentao/subfocal上找到。

translated by 谷歌翻译

Learning a Degradation-Adaptive Network for Light Field Image Super-Resolution

Yingqian Wang , Zhengyu Liang , Longguang Wang , Jungang Yang , Wei An , Yulan Guo

分类：计算机视觉

2022-06-13

近年来，在光场（LF）图像超分辨率（SR）中，深度神经网络（DNN）的巨大进展。但是，现有的基于DNN的LF图像SR方法是在单个固定降解（例如，双学的下采样）上开发的，因此不能应用于具有不同降解的超级溶解实际LF图像。在本文中，我们提出了第一种处理具有多个降解的LF图像SR的方法。在我们的方法中，开发了一个实用的LF降解模型，以近似于真实LF图像的降解过程。然后，降解自适应网络（LF-DANET）旨在将降解之前纳入SR过程。通过对具有多种合成降解的LF图像进行训练，我们的方法可以学会适应不同的降解，同时结合了空间和角度信息。对合成降解和现实世界LFS的广泛实验证明了我们方法的有效性。与现有的最新单一和LF图像SR方法相比，我们的方法在广泛的降解范围内实现了出色的SR性能，并且可以更好地推广到真实的LF图像。代码和模型可在https://github.com/yingqianwang/lf-danet上找到。

translated by 谷歌翻译

Disentangling Light Fields for Super-Resolution and Disparity Estimation

Yingqian Wang , Longguang Wang , Gaochang Wu , Jungang Yang , Wei An , Jingyi Yu , Yulan Guo

分类：计算机视觉

2022-02-22

光场（LF）摄像机记录了光线的强度和方向，并将3D场景编码为4D LF图像。最近，为各种LF图像处理任务提出了许多卷积神经网络（CNN）。但是，CNN有效地处理LF图像是一项挑战，因为空间和角度信息与不同的差异高度缠绕。在本文中，我们提出了一种通用机制，以将这些耦合信息解开以进行LF图像处理。具体而言，我们首先设计了一类特定领域的卷积，以将LFS与不同的维度解开，然后通过设计特定于任务的模块来利用这些分离的功能。我们的解开机制可以在事先之前很好地纳入LF结构，并有效处理4D LF数据。基于提出的机制，我们开发了三个网络（即distgssr，distgasr和Distgdisp），用于空间超分辨率，角度超分辨率和差异估计。实验结果表明，我们的网络在所有这三个任务上都实现了最先进的性能，这表明了我们解散机制的有效性，效率和一般性。项目页面：https：//yingqianwang.github.io/distglf/。

translated by 谷歌翻译

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution

Xinyi Ying , Yingqian Wang , Longguang Wang , Weidong Sheng , Li Liu , Zaipin Lin , Shilin Zhou

分类：计算机视觉

2022-01-04

红外小目标超分辨率（SR）旨在从其低分辨率对应物中恢复具有高度控制目标的可靠和详细的高分辨率图像。由于红外小目标缺乏颜色和精细结构信息，因此利用序列图像之间的补充信息来提高目标是很重要的。在本文中，我们提出了名为局部运动和对比的第一红外小目标SR方法，以前驱动的深网络（MoCopnet）将红外小目标的域知识集成到深网络中，这可以减轻红外小目标的内在特征稀缺性。具体而言，通过在时空维度之前的局部运动的动机，我们提出了局部时空注意力模块，以执行隐式帧对齐并结合本地时空信息以增强局部特征（特别是对于小目标）来增强局部特征。通过在空间尺寸之前的局部对比的动机，我们提出了一种中心差异残留物，将中心差卷积纳入特征提取骨架，这可以实现以中心为导向的梯度感知特征提取，以进一步提高目标对比度。广泛的实验表明，我们的方法可以恢复准确的空间依赖性并改善目标对比度。比较结果表明，MoCopnet在SR性能和目标增强方面可以优于最先进的视频SR和单图像SR方法。基于SR结果，我们进一步调查了SR对红外小型目标检测的影响，实验结果表明MoCopnet促进了检测性能。代码可在https://github.com/xinyiying/mocopnet上获得。

translated by 谷歌翻译

Detecting and Tracking Small and Dense Moving Objects in Satellite Videos: A Benchmark

Qian Yin , Qingyong Hu , Hao Liu , Feng Zhang , Yingqian Wang , Zaiping Lin , Wei An , Yulan Guo

分类：计算机视觉

2021-11-25

卫星摄像机可以为大型区域提供连续观察，这对于许多遥感应用很重要。然而，由于对象的外观信息不足和缺乏高质量数据集，在卫星视频中实现移动对象检测和跟踪仍然具有挑战性。在本文中，我们首先构建一个具有丰富注释的大型卫星视频数据集，用于移动对象检测和跟踪的任务。该数据集由Jilin-1卫星星座收集，并由47个高质量视频组成，对象检测有1,646,038兴趣的情况和用于对象跟踪的3,711个轨迹。然后，我们引入运动建模基线，以提高检测速率并基于累积多帧差异和鲁棒矩阵完成来减少误报。最后，我们建立了第一个用于在卫星视频中移动对象检测和跟踪的公共基准，并广泛地评估在我们数据集上几种代表方法的性能。还提供了综合实验分析和富有魅力的结论。数据集可在https://github.com/qingyonghu/viso提供。

translated by 谷歌翻译

Dense Nested Attention Network for Infrared Small Target Detection

Boyang Li , Chao Xiao , Longguang Wang , Yingqian Wang , Zaiping Lin , Miao Li , Wei An , Yulan Guo

分类：计算机视觉

2021-06-01

单帧红外小目标（SIRST）检测旨在将小目标与混乱背景区分开。随着深度学习的发展，基于CNN的方法由于其强大的建模能力而在通用对象检测中产生了有希望的结果。但是，现有的基于CNN的方法不能直接应用于红外小目标，因为其网络中的汇总层可能导致深层中的目标损失。为了解决这个问题，我们在本文中提出了一个密集的嵌套注意网络（DNANET）。具体而言，我们设计了一个密集的嵌套交互模块（DNIM），以实现高级和低级特征之间的渐进互动。随着DNIM中的重复相互作用，可以保持深层中的红外小目标。基于DNIM，我们进一步提出了一个级联的通道和空间注意模块（CSAM），以适应增强多级特征。借助我们的DNANET，可以通过重复的融合和增强来充分整合和充分利用小型目标的上下文信息。此外，我们开发了一个红外的小目标数据集（即nudt-sirst），并提出了一组评估指标来进行全面的绩效评估。对公众和我们自我开发的数据集进行的实验证明了我们方法的有效性。与其他最先进的方法相比，我们的方法在检测概率（PD），假警报率（FA）和联合交集（IOU）方面取得了更好的性能。

translated by 谷歌翻译

Non-Convex Tensor Low-Rank Approximation for Infrared Small Target Detection

Ting Liu , Jungang Yang , Boyang Li , Chao Xiao , Yang Sun , Yingqian Wang , Wei An

分类：计算机视觉

2021-05-31

红外小目标检测是红外系统中的重要基本任务。因此，已经提出了许多红外小目标检测方法，其中低级模型已被用作强大的工具。然而，基于低级别的方法为不同的奇异值分配相同的权重，这将导致背景估计不准确。考虑到不同的奇异值具有不同的重要性，并且应判别处理，本文提出了一种用于红外小目标检测的非凸张力低秩近似（NTLA）方法。在我们的方法中，NTLA正则化将不同的权重自适应分配给不同的奇异值以进行准确背景估计。基于所提出的NTLA，我们提出了不对称的空间 - 时间总变化（ASTTV）正则化，以实现复杂场景中的更准确的背景估计。与传统的总变化方法相比，ASTTV利用不同的平滑度强度进行空间和时间正则化。我们设计了一种有效的算法来查找我们方法的最佳解决方案。与一些最先进的方法相比，所提出的方法达到各种评估指标的改进。各种复杂场景的广泛实验结果表明，我们的方法具有强大的鲁棒性和低误报率。代码可在https://github.com/liuting20a/asttv-ntla获得。

translated by 谷歌翻译

Automated Reinforcement Learning: An Overview

Reza Refaei Afshar , Yingqian Zhang , Joaquin Vanschoren , Uzay Kaymak

分类：机器学习 | 人工智能

2022-01-13

强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑，因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而，RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外，许多建模决策，例如定义状态和动作空间，批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因，RL框架的自动化不同组成部分具有重要意义，近年来它引起了很多关注。自动RL提供了一个框架，其中RL的不同组件包括MDP建模，算法选择和超参数优化是自动建模和定义的。在本文中，我们探讨了可以在自动化RL中使用的文献和目前的工作。此外，我们讨论了Autorl中的挑战，打开问题和研究方向。

translated by 谷歌翻译

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

Junjie Yan , Yingfei Liu , Jianjian Sun , Fan Jia , Shuailin Li , Tiancai Wang , Xiangyu Zhang

分类：计算机视觉

2023-01-03

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

translated by 谷歌翻译